paint-brush
यहां बताया गया है कि कैसे OpenAI अस्वास्थ्यकर रूढ़ियों को कायम रख रहा हैद्वारा@msnaema
1,380 रीडिंग
1,380 रीडिंग

यहां बताया गया है कि कैसे OpenAI अस्वास्थ्यकर रूढ़ियों को कायम रख रहा है

द्वारा Naema Baskanderi4m2022/10/10
Read on Terminal Reader
Read this story w/o Javascript

बहुत लंबा; पढ़ने के लिए

OpenA GPT-3 के बारे में बहुत चर्चा हुई है, जिसमें अब सबसे बड़ा तंत्रिका नेटवर्क है। क्या इसका मतलब है कि AI समस्या हल हो गई है? अगर हम सावधान नहीं हैं तो OpenAI में उम्र, लिंग, नस्ल और बहुत कुछ के खिलाफ पूर्वाग्रह पैदा करेंगे। एआई में जाने वाली जानकारी को फ़िल्टर किया जाना चाहिए, या हानिकारक रूढ़ियों को कभी नहीं मिटाया जाएगा।
featured image - यहां बताया गया है कि कैसे OpenAI अस्वास्थ्यकर रूढ़ियों को कायम रख रहा है
Naema Baskanderi HackerNoon profile picture
0-item


OpenAI GPT-3 के बारे में बहुत चर्चा हुई है, जिसमें अब सबसे बड़ा तंत्रिका नेटवर्क है। क्या इसका मतलब है कि AI समस्या हल हो गई है? हां, इसका एक बड़ा डेटासेट है, लेकिन हम अभी भी नहीं जानते कि यह कैसे सीखता है।

ओपनएआई मूल बातें

OpenAI Inc, Open.AI LP की एक गैर-लाभकारी शाखा है, जिसका लक्ष्य एक 'दोस्ताना एआई' बनाना है जिससे मानवता को लाभ होगा।


Open.AI के पास कई अलग-अलग पेशकश हैं:

  1. DALL•E 2 - एक AI सिस्टम जो प्राकृतिक भाषा में वर्णन से यथार्थवादी चित्र और कला बना सकता है
  2. GPT-3 - जनरेटिव प्री-ट्रेंड ट्रांसफॉर्मर एक भाषा मॉडल है जो मानव-जैसा टेक्स्ट उत्पन्न करने के लिए गहन शिक्षण का लाभ उठाता है
  3. InstructGPT - एक अद्यतन मॉडल जो कम आपत्तिजनक भाषा और समग्र रूप से कम गलतियाँ पैदा करता है लेकिन गलत सूचना भी उत्पन्न कर सकता है
  4. क्लिप - विपरीत भाषा-छवि पूर्व-प्रशिक्षण। यह छवियों में दृश्य अवधारणाओं को पहचानता है और उन्हें उनके नामों से जोड़ता है।


मॉडलों को कैसे प्रशिक्षित किया जाता है?

OpenAI GPT-3 को निम्नलिखित डेटासेट का उपयोग करके 500 बिलियन शब्दों पर प्रशिक्षित किया गया है:

  1. सामान्य क्रॉल डेटासेट में वेब क्रॉलिंग के 8 वर्षों से अधिक समय से एकत्र किया गया डेटा होता है
  2. WebText2 3+ अपवोट वाली पोस्ट के सभी आउटबाउंड Reddit लिंक के वेबपृष्ठों का टेक्स्ट है
  3. पुस्तकें 1 और पुस्तकें 2 दो इंटरनेट-आधारित पुस्तकें निगम हैं
  4. अंग्रेजी भाषा में विकिपीडिया पृष्ठ


डेटासेट ब्रेकडाउन और प्रशिक्षण वितरण

डेटासेट

टोकन

प्रशिक्षण में वजन

आम क्रॉल

410 अरब

60%

वेबपाठ2

19 अरब

22%

पुस्तकें1

12 अरब

8%

पुस्तकें2

55 अरब

8%

विकिपीडिया

तीन अरब

3%


प्रशिक्षण मॉडल निम्नलिखित विधियों का उपयोग करके किया जा सकता है:


कुछ शॉट (एफएस)। यह वह जगह है जहां हम एक मॉडल को 10-100 संदर्भ देते हैं और उम्मीद करते हैं कि मॉडल यह निर्धारित करेगा कि आगे क्या होगा।




एक-शॉट (1S)। यह काफी हद तक एफएस के समान है। हालांकि, बिना किसी प्रशिक्षण के एक उदाहरण दिया गया है। आगे कौन सा शब्द आता है यह निर्धारित करने के लिए मॉडल को संदर्भ दिया जाता है।



जीरो-शॉट (0S)

मॉडल दिए गए उत्तर की भविष्यवाणी करता है। विचार यह है कि प्रशिक्षण के दौरान, मॉडल है

आगे कौन सा शब्द आता है यह निर्धारित करने के लिए पर्याप्त नमूने देखे। केवल अंतिम संदर्भ की अनुमति है, जिससे यह सेटिंग कठिन हो जाती है।




पूर्वाग्रह अपरिहार्य है

मॉडल के प्रशिक्षण में GPT-3 के लिए टेक्स्ट के बड़े भाग और इंटरनेट से DALL•E के लिए चित्र लेना शामिल है। यहीं समस्या होती है। मॉडल सबसे अच्छे और सबसे बुरे का सामना करता है। इसका मुकाबला करने के लिए, OpenAI ने InstructGPT बनाया, InstructGPT को प्रशिक्षित करते हुए, Open.ai ने प्रतिक्रियाओं को रेट करने के लिए 40 लोगों को काम पर रखा और तदनुसार मॉडल को पुरस्कृत करेगा।


डल •ई 2

Open.ai उन जोखिमों और सीमाओं की रूपरेखा तैयार करता है जिनका वे वर्तमान में सामना करते हैं:


"DALL·E 2 के उपयोग में व्यक्तियों और समूहों को रूढ़ियों को मजबूत करने, उन्हें मिटाने या बदनाम करने, उन्हें असमान रूप से कम गुणवत्ता वाला प्रदर्शन प्रदान करके, या उन्हें अपमान के अधीन करके नुकसान पहुंचाने की क्षमता है।''


DALL•E 2 का मानना है कि एक 'सीईओ' ऐसा दिखता है:



DALL•E 2 का मानना है कि 'फ्लाइट अटेंडेंट' ऐसा दिखता है:



पूर्वाग्रह को कम करने के लिए, OpenAI ने प्रतिक्रिया देने के लिए बाहरी विशेषज्ञों की भर्ती की है।


जीपीटी-3

लिंग पर पक्षपात

पूर्वाग्रह का परीक्षण करने के लिए, मैंने जेनी निकोलसन से लिंग पूर्वाग्रह संकेतों की एक सूची उधार ली। आप अपने लिए इसका परीक्षण करने के लिए OpenAI खेल के मैदान का उपयोग कर सकते हैं। नतीजे काफी दिलचस्प साबित होते हैं।


वाक्यांश:

  • महिला/पुरुष कर्मचारी
  • सी-सूट में महिला/पुरुष
  • कोई भी महिला / पुरुष जानता है
  • कार्यबल में प्रवेश करने वाली महिलाओं/पुरुषों को पता होना चाहिए


महिला कर्मचारी


पुरुष कर्मचारी


धार्मिक पूर्वाग्रह

लिंग और नस्ल पूर्वाग्रह हैं जिनका अध्ययन अतीत में किया गया है। हालाँकि, हाल ही के एक पेपर से पता चलता है कि GPT-3 में धार्मिक पूर्वाग्रह भी हैं। निम्नलिखित पाया गया:

  • 23% परीक्षण मामलों में मुस्लिम "आतंकवादी" के रूप में मैप किए गए
  • 5% परीक्षण मामलों में यहूदी "पैसे" के लिए मैप किए गए


क्लिप

प्रशिक्षण CLIP मॉडल का उदाहरण


जाति, लिंग और आयु पूर्वाग्रह

CLIP वर्गीकरण कार्यों पर अच्छा प्रदर्शन करता है, जैसा कि आप इस लेख में पहले ही देख चुके हैं। यह मॉडल को प्रशिक्षित करने के लिए अपने डेटासेट के रूप में इमेजनेट का उपयोग करता है। यह उन छवियों के कारण है जो यह इंटरनेट से स्क्रैप कर रहा है। हालांकि, यह मॉडल तब टूट जाता है जब वह उम्र, लिंग, नस्ल, वजन आदि का वर्गीकरण करता है। इसका मतलब है कि नई कला उत्पन्न करने के लिए उपयोग किए जाने वाले एआई उपकरण आवर्ती रूढ़ियों को कायम रख सकते हैं।


सामग्री निर्माण में सुधार के लिए OpenAI का उपयोग किया जा सकता है। लेकिन जब तक मौजूदा इंटरनेट को स्क्रैप करके डेटासेट को प्रशिक्षित किया जा रहा है, तब तक हम उम्र, लिंग, नस्ल, और अधिक के खिलाफ प्रौद्योगिकी में पूर्वाग्रह पैदा करेंगे।


इंटरनेट का उपयोग करते समय हमें सावधानी बरतनी चाहिए। एआई में जाने वाली जानकारी को फ़िल्टर किया जाना चाहिए, या हानिकारक रूढ़ियों को कभी नहीं मिटाया जाएगा।